Noticia Sin categorizar

Problemas con los servidores de AWS en el norte de Virginia: ¿cuál era el problema?

Era miércoles 25 de noviembre, un día como cualquier otro en el norte de Virginia, en el sureste de Estados Unidos, cuando Amazon Web Service sufrió una interrupción del servicio que causó importantes problemas a muchos servicios en línea.

Después de analizar el problema de manera precisa y meticulosa, desde la sede de Seattle dijeron que la interrupción solo ocurrió en la región del norte de Virginia, específicamente después de una «pequeña adición de capacidad» a su flota front-end de servidores Kinesis.

Esto no es un inconveniente menor si tenemos en cuenta que Amazon Kinesis, una herramienta de AWS que permite el procesamiento en tiempo real de datos de streaming, además de su uso directo por parte de los clientes, es utilizado por grandes empresas como Adobe Spark, Roku, Flickr o Autodesk. Esto significa que casi todas las principales aplicaciones de software basadas en la nube que dependen de Amazon Kinesis para su back-end se han visto afectadas por la interrupción.

Baste decir, de hecho, que los problemas también afectaron a los portales de criptomonedas que no procesaban las transacciones y a los servicios de streaming y podcast que limitaban el acceso de los usuarios a sus cuentas. Entre los sitios que han informado problemas en la página de DownDetector se encuentran servicios como Ring, Prime Music, Pokemon Go, Roku, MeetUp.com, League of Legends, Anchestry.com, Chime y más.

Según el gigante de la nube, la interrupción se produjo después de una «pequeña adición de capacidad» a su flota de servidores Kinesis front-end.

«
El factor desencadenante, aunque no la causa principal del evento,
-la empresa está dispuesta a señalar- Fue una adición relativamente pequeña de capacidad que comenzó a agregarse al servicio a las 2:44 a.m., terminando a las 3:47 a.m. Kinesis tiene una gran cantidad de clústeres de celdas de back-end que procesan las transmisiones. Estos son los caballos de batalla de Kinesis, ya que proporcionan implementación, acceso y escalabilidad para el procesamiento de flujos. Las transmisiones se difunden al back-end a través de un mecanismo de particionamiento propiedad de una flota de servidores front-end. Un clúster de back-end posee muchos fragmentos y proporciona una unidad de escalado coherente y aislamiento de errores. El trabajo del front-end es pequeño pero importante. Administra la autenticación, la limitación y el enrutamiento de las solicitudes a las particiones de flujo correctas en los clústeres de back-end”.

«
A las 9:39 a.m.
«, continúan Pudimos confirmar que la causa raíz no se debía a la presión de la memoria. Más bien, la nueva capacidad había provocado que se superara el número máximo de subprocesos permitidos por una configuración de sistema operativo en todos los servidores de la flota. Cuando se superaba este límite, la construcción de la caché no se completaba y los servidores front-end se quedaban con mapas fragmentados inútiles que les impedían enrutar las solicitudes a los clústeres back-end”.

En resumen, el problema habría sido desencadenado por el deseo de aumentar la capacidad del sistema. El intento de agregar nuevos servidores a la red dominante de computación en la nube de Amazon desencadenó una serie de errores en cascada que causaron problemas a varios servicios en línea.

Sin embargo, reconocer los errores es esencial y, en este caso, el gigante de la nube se apresuró a disculparse con sus clientes. «Haremos todo lo posible para aprender de este evento y usarlo para mejorar aún más», dijeron.

¿Quieres saber cómo evitar que esto le suceda a tu negocio?

Author

Valentina

Leave a comment

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

This site is registered on wpml.org as a development site. Switch to a production site key to remove this banner.